文章标签

Nvidia Volta

Transformer模型推理优化：不改模型结构，提升文档摘要系统效率

在人工智能领域，特别是自然语言处理任务中，Transformer模型凭借其强大的表征能力，在长文档摘要这类复杂任务上表现出色。然而，其巨大的参数量和计算复杂度，在实际部署时常常带来性能挑战：每次生成摘要都需要消耗大量计算资源和时间，严重影...

2025/10/6 0 349 0 0 0 推理优化 AI部署
CUDA 共享内存访问模式深度解析：Bank Conflict 产生、影响与优化策略

CUDA 共享内存访问模式深度解析：Bank Conflict 产生、影响与优化策略大家好，我是你们的硬核程序猿朋友“码农老司机”。今天咱们来聊聊 CUDA 编程中一个绕不开的话题——共享内存（Shared Memory）以及它带来...

2025/3/12 0 1091 0 0 0 CUDA 共享内存 Bank Conflict
CUDA 共享内存 Bank Conflict：深入解析与优化实战

兄弟们，今天咱们来聊聊 CUDA 编程中一个绕不开的话题——共享内存的 Bank Conflict。这玩意儿，搞懂了，你的程序性能蹭蹭往上涨；搞不懂，程序跑得比蜗牛还慢，你还不知道问题出在哪。啥是 Bank Conflict？ ...

2025/3/12 0 874 0 0 0 CUDA 共享内存 Bank Conflict
XLA编译器如何优化不同架构GPU（例如Nvidia Volta、Ampere）？深度解析与性能差异

XLA编译器如何优化不同架构GPU（例如Nvidia Volta、Ampere）？深度解析与性能差异 XLA（Accelerated Linear Algebra）是一个用于线性代数运算的领域特定编译器，它可以将高层次的计算描述编译成...

2024/12/29 0 683 0 0 0 XLA GPU 编译器优化

文章标签

Nvidia Volta

Transformer模型推理优化：不改模型结构，提升文档摘要系统效率

CUDA 共享内存访问模式深度解析：Bank Conflict 产生、影响与优化策略

CUDA 共享内存 Bank Conflict：深入解析与优化实战

XLA编译器如何优化不同架构GPU（例如Nvidia Volta、Ampere）？深度解析与性能差异